Aprendizaje por refuerzo optimiza atención deslizante en razonamiento matemático Descubre cómo SWARR usa RL para hacer la atención de ventana deslizante competitiva en razonamiento matemático, recuperando precisión con eficiencia lineal. 2026-06-11 · 2 min